pdfminer.six snippet - 清水川のScrapbox

pdfminer.six snippet

pdfminer.six でPDFを操作

テキストを抽出

code:shell

$ python pdf2txt.py sample.pdf -A -o sample.txt

-A 図表内のテキストも全て

-o 出力先ファイル指定（リダイレクトで保存したら文字化けしたが、-oなら大丈夫だった）

-O 画像出力先ディレクトリ

-t 出力タイプ: text, html, xml, tag